DATASCIENTEST

DATA ENGINEER | Titre RNCP niveau 7 - Bac +5 | Co-certifiée école MINES Paris

DATASCIENTEST

Voir les avis
Finançable CPF
Salarié en poste / Demandeur d'emploi / Entreprise
En ligne
Public admis
Salarié en poste
Demandeur d'emploi
Entreprise
Etudiant
Prix
Nous contacter
Prise en charge CPF
Durée
400 heures
Niveau visé
Niveau BAC + 5
Pré-requis
Appétence maths & stats, algèbre linéaire, expérience pro OU tests évaluation ET entretien data Scientist (formation continue)
Certifications
Datadock Qualiopi
Le plus de la formation
Plateforme Saas,Format hybride,Learning by doing:
Localité
En ligne
Vous pouvez suivre cette formation depuis chez vous ou depuis n’importe quel endroit à distance.
En savoir plus sur les localités en présentiel
Cette formation peut être dispensée dans votre entreprise dans les localités suivantes :
  • 01 - Ain
  • 02 - Aisne
  • 03 - Allier
  • 04 - Alpes-de-Haute-Provence
  • 05 - Hautes-Alpes
  • 06 - Alpes-Maritimes
  • 07 - Ardèche
  • 08 - Ardennes
  • 09 - Ariège
  • 10 - Aube
  • 11 - Aude
  • 12 - Aveyron
  • 13 - Bouches-du-Rhône
  • 14 - Calvados
  • 15 - Cantal
  • 16 - Charente
  • 17 - Charente-Maritime
  • 18 - Cher
  • 19 - Corrèze
  • 21 - Côte-d'Or
  • 22 - Côtes-d'Armor
  • 23 - Creuse
  • 24 - Dordogne
  • 25 - Doubs
  • 26 - Drôme
  • 27 - Eure
  • 28 - Eure-et-Loir
  • 29 - Finistère
  • 2A - Corse-du-Sud
  • 2B - Haute-Corse
  • 30 - Gard
  • 31 - Haute-Garonne
  • 32 - Gers
  • 33 - Gironde
  • 34 - Hérault
  • 35 - Ille-et-Vilaine
  • 36 - Indre
  • 37 - Indre-et-Loire
  • 38 - Isère
  • 39 - Jura
  • 40 - Landes
  • 41 - Loir-et-Cher
  • 42 - Loire
  • 43 - Haute-Loire
  • 44 - Loire-Atlantique
  • 45 - Loiret
  • 46 - Lot
  • 47 - Lot-et-Garonne
  • 48 - Lozère
  • 49 - Maine-et-Loire
  • 50 - Manche
  • 51 - Marne
  • 52 - Haute-Marne
  • 53 - Mayenne
  • 54 - Meurthe-et-Moselle
  • 55 - Meuse
  • 56 - Morbihan
  • 57 - Moselle
  • 58 - Nièvre
  • 59 - Nord
  • 60 - Oise
  • 61 - Orne
  • 62 - Pas-de-Calais
  • 63 - Puy-de-Dôme
  • 64 - Pyrénées-Atlantiques
  • 65 - Hautes-Pyrénées
  • 66 - Pyrénées-Orientales
  • 67 - Bas-Rhin
  • 68 - Haut-Rhin
  • 69 - Rhône
  • 70 - Haute-Saône
  • 71 - Saône-et-Loire
  • 72 - Sarthe
  • 73 - Savoie
  • 74 - Haute-Savoie
  • 75 - Paris
  • 76 - Seine-Maritime
  • 77 - Seine-et-Marne
  • 78 - Yvelines
  • 79 - Deux-Sèvres
  • 80 - Somme
  • 81 - Tarn
  • 82 - Tarn-et-Garonne
  • 83 - Var
  • 84 - Vaucluse
  • 85 - Vendée
  • 86 - Vienne
  • 87 - Haute-Vienne
  • 88 - Vosges
  • 89 - Yonne
  • 90 - Territoire de Belfort
  • 91 - Essonne
  • 92 - Hauts-de-Seine
  • 93 - Seine-Saint-Denis
  • 94 - Val-de-Marne
  • 95 - Val-d'Oise
Objectifs

Le Data Engineer ou Expert Big Data est le monsieur IT des équipes Data, il gère l'architecture de la donnée et mets en prod les modèles conçus par le data scientist.

En suivant ce cursus, vous aurez toutes les clefs pour y parvenir. Un programme exhaustif qui fera de vous un Data Engineer opérationnel à l'aise avec toutes les technos utilisées sur le marché y compris sur tous les outils cloud.

Informations pratiques:

- Parcours de formation Hybride mêlant sessions de coaching en visio conférence et autoformation sur notre plateforme full saas prete à coder

- Nos professeurs sont également concepteur du programme pour garantir une cohérence et un suivi homogène tout au long du parcours.

- Des séances de coaching personnelle sont disponible chaque semaine pour les apprenants

- Chaque module est sanctionné un examen, corrigé à la main, pour validation

- Un projet fil-rouge, que vous allez devoir établir à partir de rien, représente environ 1/3 du temps alloué à votre formation: chaque semaine un point sera fait avec votre responsable de cohorte pour gérer l’avancement et la bonne compréhension des méthodes à mettre en pratique

Programme

Divisé en 7 blocs, le cursus deData Engineer, accessible en format intensif de 11 semaines ou continu de 9 mois, saura apporter toutes les connaissances et compétences nécessaires au métier sous-jacent.

1. Programmation

Bash
- Présentation des Systèmes Linux
- Prise en main et utilisation d’un terminal
- Mise en place de scripts Bash

Python & Python orientée objet
- Maitrise des variables et des types
- Présentation des divers opérateurs et de leurs applications
- Introduction au concept de boucles et aux structures de contrôle
- Définition d'une fonction sur Python et de leurs applications
- Initiation aux classes et modules
- Préparation de la mise en place, du paramétrage et de l'enchainement de Décorateurs
- Différenciation et implémentation du multithreading et du multiprocessing sur Python
- Application d'une fonction asynchrone sur Python
- Introduction aux annotations et utilisation de la bibliothèque MyPy

2. Base de données

SQL
- Introduction aux bases de données relationnelles
- Présentation de SQL Alchemy et applications
- Initiation aux bases du langage SQL
- Approndissement de SQL et de ses applications

MongoDB
- Introduction au base de données NoSQL (base de données orientée document, colonne, graphe)
- Présentation de MongoDB
- Familiarisation avec la syntaxe des requêtes MongoDB

Elasticsearch
- Description d'un moteur de recherche
- Présentation d'un index et mode d'emploi
- Mise au point d'un Mapping
- Découverte des différentes opérations
- Prétraitement des données avec Ingest Node
- Extraction des données avec les Text Analyzer

Neo4j
- Introduction aux bases de données orientées graphe
- Mise en place d'un premier graphe
- Initiation au langage de requête Cypher
- Chargement de données dans Neo4J
- Utilisation d'un client Python pour Neo4J

3. Data Science 

Statistique
 
- Exploration des variables numériques
- Exploration des variables catégorielles
- Étude des relations entre les variables

Machine Learning
- Prétraitement de données
- Sélection et optimisation d'un algorithme de Machine Learning
- Définition et application d'un algorithme de régression
- Définition et application d'un algorithme de classification
- Développement d'algorithmes de clustering
- Introduction au PCA

DataViz avec Matplotlib
- Présentation des différents types de graphes
    Graphiques en barres (Barplots)
    Nuages de points (Scatter plots)
    Histogrammes
    Boîtes à Moustaches (Box Plots) et Camemberts (Pie Plots)

4. Big Data Volume

Handoop & Hive

- Fonctionnement de Hadoop
- Installation et configuration de Hadoop
- Traitement et stockage des données avec HDFS
- Présentation de MapReduce
- Utilisation de Hadoop Streaming pour exécuter un fichier Map/Reduce
- Mise en place d'entrepôts de données
- Présentation du fonctionnement de Hive

Hbase
- Présentation des bases de données orientée colonne
- Association de Hadoop (HDFS) et de Hbase
- Requêtes de données
- Modification des données par Python et happybase

Spark 
- Distinction entre Spark et Hadoop
- Introduction au calclul distribué avec Spark
- Présentation des APIs RDD et Dataframe de Spark
- Pipeline de processing de donnée distribuée avec pyspark
- Machine Learning distribué avec Spark MLLib

5. CI/CD

Git
- Introduction au système de gestion de version Git
- Initialisation d'un dépôt Git
- Présentation et approfondissement des concepts git :
    Branches
    Tag
    Merge

Github
- Découverte de la plateforme Github pour le travail collaboratif sur Git
- Présentation des fonctionnalités majeures de GitHub :
    Fork
    Pull Request
    Issues
- Partager ses modifications avec pull et push
- Participation à l'amélioration de projet public
- Présentation des principaux workflows git

Quality Assurance
- Mise en place de tests unitaires avec Pytest
- Introduction aux Tests d'intégration et leurs fonctions
- Présentation des avantages des tests : gain de temps, lisibilité, qualité et amélioration de code

6. Big Data Vitesse

Architecture de streaming
- Gestion de flux de données en temps réel
- Conception d'une architecture Big Data hybride (batch et temps réel)
- Mise en place d'une architecture Lambda

Kafka
- Présentation de la plateforme de streaming distribuée Kafka
    Architecture
    Avantages
- Gestion des paramétrages de Producers
   Clef de partitionnement
- Maitrise des paramétrages de Consumers
    Consumer group

Spark Streaming
- Prise en main de Spark Streaming pour le traitement de données temps réel
- Présentation du minibatch streaming nécessaire pour le fonctionnement de Spark Streaming

7. Automatisation et déploiement

APIs
- Introduction aux APIs et découverte des architectures micro services
- Présentation des différentses méthodes HTTP et de leurs fonctions
- Utilisation des librairies FastAPI et Flask pour développer des API RESTful
- Documentation d'une API avec la spécification OpenAPI
- Gestion des erreurs et des performances d'une API

Aiflow
- Découverte des concepts d'Airflow:
    Présentation des principe de l'orchestration et utilité
    Graphe orienté acycliques ou DAG (Directed Acyclic Graphs)
    Opérateurs
- Gestion de tâches par le biais d'Operators spécifiques
- Monitoring des DAGs via l'interface graphique d'Airflow

Docker
- Présentation de la conteneurisation et de son utilité par rapport à la virtualisation
- Initiation au fonctionnement de Docker
- Manipulation des images et des conteneurs
- Communication avec les conteneurs
- Persistance des données grâce aux volumes
- Création d'une image Docker via un Dockerfile
- Partage des images sur le Dockerhub
- Utilisation de dockercompose

Kubernetes
- Déployer et gérer des conteneurs

+ Le projet fil-rouge

La formation en vidéo
Qu'est-ce qu'un Data Engineer ?
Découvrez notre cursus Data Engineer

Formation diplômante

inscrite au RNCP

Financement facilité

CPF, OPCA, etc.

Professeur dédié

5 jours sur 7

Financement

Des solutions de financement pour vous aider

Logo Mon Compte Formation
Financement CPF Logo Mon Compte Formation
Le Compte Personnel de Formation (CPF) permet à toute personne active en France de financer des formations pour développer ses compétences professionnelles tout au long de sa carrière.
Accessibilité et autonomie dans la formation
Évolution professionnelle et employabilité
Prise en charge financière
Ce qu'ils pensent de cette formation
Centre

À propos du centre DATASCIENTEST

Leader français de la formation en Data Science, DataScientest offre un apprentissage d’excellence orienté emploi pour professionnels et particuliers

Notre dispositif joui de plusieurs avantages qui expliquent ce succès:

Un système d’apprentissage hybride innovant: 

Notre formation repose sur un dispositif reposant à la fois sur une plateforme full Saas de E-Learning et un accompagnement personnalisé de cours et coaching en distanciel (depuis la crise sanitaire). Le rapport est d’environ 85% et 15%. Ceci permet d’allier la flexibilité et rigueur qui assure un taux de satisfaction de 94% et de complétion de 99%.

Deux options de rythme: 

Une formation en format Bootcamp, intensive sur une base de 35h par semaine idéale pour les reconversion et une formation continue d’environ 5/7h par semaine qui permet de conjuguer formation et projets professionnels ou personnels. 

Des professeurs-concepteurs maître de leurs disciplines:

Tous nos professeurs, issus des meilleures écoles d’ingénieur (Polytechnique, Centrale…), travaillent à temps plein pour DataScientest à la fois dans la conception de nouvelles formations, dans le coaching personnel des apprenants, la R&D… Nous ne ferons jamais appel à des prestataires externes pour une meilleure maîtrise des sujets abordés. 

 

Ce dispositif explique qu’en l’espace de quatre ans, plus de 35 entreprises du CAC40 et de nombreux autres champions français et étrangers nous ont déjà fait confiance pour former quelque 1500 professionnels. Entre temps, et depuis le lancement de notre offre pour particuliers il y a un an, environ 2 cohortes sont lancées tous les mois. 

Nous proposons trois formations aux data sciences aux prérequis plus ou moins exigeant: Data Analyst, Data Scientist, Data Engineer, toutes éligibles à une certification de l’Université Panthéon Sorbonne et de l'école MINES ParisTech.

Témoignages

Parce que c'est vous qui en parlez le mieux

Témoignage alumni - Créer son entreprise grâce à l

Envie d’en savoir plus sur cette formation ?

Documentez-vous sur la formation

Certification Datadock
Certification Qualiopi
Ces formations peuvent vous intéresser

Quelle est votre situation ?

Vous êtes ?

Veuillez choisir un lieu

Please fill out this field.

Please fill out this field.

Veuillez sélectionner un niveau de formation

Informez-vous gratuitement et sans engagement sur la formation.

Please fill out this field.

Please fill out this field.

Please fill out this field.

Veuillez saisir une adresse email

  • Vous voulez dire ?
  • ou plutôt ?

En cliquant sur "J'envoie ma demande", vous acceptez les CGU et déclarez avoir pris connaissance de la politique de protection des données du site maformation.fr

Haut de page